Dialogue state tracking (DST) aims to convert the dialogue history into dialogue states which consist of slot-value pairs. As condensed structural information memorizing all history information, the dialogue state in the last turn is typically adopted as the input for predicting the current state by DST models. However, these models tend to keep the predicted slot values unchanged, which is defined as state momentum in this paper. Specifically, the models struggle to update slot values that need to be changed and correct wrongly predicted slot values in the last turn. To this end, we propose MoNET to tackle state momentum via noise-enhanced training. First, the previous state of each turn in the training data is noised via replacing some of its slot values. Then, the noised previous state is used as the input to learn to predict the current state, improving the model's ability to update and correct slot values. Furthermore, a contrastive context matching framework is designed to narrow the representation distance between a state and its corresponding noised variant, which reduces the impact of noised state and makes the model better understand the dialogue history. Experimental results on MultiWOZ datasets show that MoNET outperforms previous DST methods. Ablations and analysis verify the effectiveness of MoNET in alleviating state momentum and improving anti-noise ability.
translated by 谷歌翻译
由于其广泛的应用,例如自动驾驶,机器人技术等,认识到Point Cloud视频的人类行为引起了学术界和行业的极大关注。但是,当前的点云动作识别方法通常需要大量的数据,其中具有手动注释和具有较高计算成本的复杂骨干网络,这使得对现实世界应用程序不切实际。因此,本文考虑了半监督点云动作识别的任务。我们提出了一个蒙版的伪标记自动编码器(\ textbf {Maple})框架,以学习有效表示,以较少的注释以供点云动作识别。特别是,我们设计了一个新颖有效的\ textbf {de}耦合\ textbf {s} patial- \ textbf {t} emporal trans \ textbf {pert}(\ textbf {destbrof {destformer})作为maple的backbone。在Destformer中,4D点云视频的空间和时间维度被脱钩,以实现有效的自我注意,以学习长期和短期特征。此外,要从更少的注释中学习判别功能,我们设计了一个蒙版的伪标记自动编码器结构,以指导Destformer从可用框架中重建蒙面帧的功能。更重要的是,对于未标记的数据,我们从分类头中利用伪标签作为从蒙版框架重建功能的监督信号。最后,全面的实验表明,枫树在三个公共基准上取得了优异的结果,并且在MSR-ACTION3D数据集上以8.08 \%的精度优于最先进的方法。
translated by 谷歌翻译
这项研究调查了基于知识的问题产生的任务(KBQG)。传统的KBQG的作品从知识图中的FACT三元组中产生了问题,该问题无法表达复杂的操作,例如SPARQL中的聚合和比较。此外,由于大规模SPARQL问题对的昂贵注释,因此需要急切地探索SPARQL的KBQG,因此需要急切地探索SPARQL。最近,由于通常接受自然语言(NL)至NL范式培训的生成预训练的语言模型(PLM)已被证明对低资源生成有效,例如T5和Bart,如何有效地利用它们来生成NL - 非NL SPARQL的问题是具有挑战性的。为了应对这些挑战,提出了AutoQGS是SPARQL低资源KBQG的自动推出方法。首先,我们提出要直接从SPARQL生成问题,以处理KBQG任务以处理复杂的操作。其次,我们提出了一个对大规模无监督数据训练的自动档案,以将SPARQL重新描述为NL描述,从而平滑了从非NL SPARQL到NL问题的低资源转换。 WebQuestionsSP,ComlexWebQuestions 1.1和路径问题的实验结果表明,我们的模型可实现最新的性能,尤其是在低资源设置中。此外,为进一步的KBQG研究生成了330k Factoid复杂问题-SPARQL对的语料库。
translated by 谷歌翻译
ROC曲线(AUROC)下的区域已大力应用于分类不平衡,此外,与深度学习技术相结合。但是,没有现有的工作为同行选择适当的深度AUROC最大化技术提供合理的信息。在这项工作中,我们从三个方面填补了这一空白。 (i)我们基准具有各种损失函数,具有不同的算法选择,用于深度AUROC优化问题。我们研究了两类损失功能:成对损失和复合损失,其中包括10个损失函数。有趣的是,我们发现综合损失是一种创新的损失函数类别,比训练收敛和测试概括视角的成对损失表现出更具竞争力的性能。然而,带有更损坏的标签的数据有利于成对的对称损失。 (ii)此外,我们基准并强调了基本算法选择,例如正采样率,正则化,归一化/激活和优化器。主要发现包括:较高的阳性采样率可能对深度AUROC最大化有益;不同的数据集有利于不同的正规化权重;适当的归一化技术,例如Sigmoid和$ \ ell_2 $得分归一化,可以提高模型性能。 (iii)为了优化方面,我们基于成对和复合损失的SGD型,动量类型和ADAM型优化器。我们的发现表明,尽管从训练的角度来看,亚当型方法更具竞争力,但从测试角度来看,它并不优于其他方法。
translated by 谷歌翻译
视频的行动识别,即将视频分类为预定义的动作类型之一,一直是人工智能,多媒体和信号处理社区中的一个流行话题。但是,现有方法通常考虑一个整体上的输入视频并学习模型,例如卷积神经网络(CNNS),并带有粗糙的视频级别类标签。这些方法只能为视频输出一个动作类,但不能提供可解释的线索来回答为什么视频显示特定的动作。因此,研究人员开始专注于一项新任务,部分级别的动作解析(PAP),该作用不仅旨在预测视频级别的动作,而且还要认识到每个人的框架级别的细粒度的动作或身体部位的相互作用在视频中。为此,我们为这项具有挑战性的任务提出了一个粗到精细的框架。特别是,我们的框架首先预测输入视频的视频级别类别,然后将身体部位定位并预测零件级别的动作。此外,为了平衡部分级别的动作解析的准确性和计算,我们建议通过段级特征识别零件级的操作。此外,为了克服身体部位的歧义,我们提出了一种姿势引导的位置嵌入方法来准确地定位身体部位。通过在大规模数据集(即动力学TPS)上进行的全面实验,我们的框架可以实现最先进的性能,并且超过31.10%的ROC得分的现有方法。
translated by 谷歌翻译
在本文中,我们提出了适用于深度学习的单向和双向部分AUC(PAUC)最大化的系统和高效的基于梯度的方法。我们通过使用分布强大的优化(DRO)来定义每个单独的积极数据的损失,提出了PAUC替代目标的新公式。我们考虑了两种DRO的配方,其中一种是基于条件 - 价值风险(CVAR),该风险(CVAR)得出了PAUC的非平滑但精确的估计器,而另一个基于KL差异正则DRO产生不确定的dro。但是PAUC的平滑(软)估计器。对于单向和双向PAUC最大化,我们提出了两种算法,并证明了它们分别优化其两种配方的收敛性。实验证明了所提出的算法对PAUC最大化的有效性,以对各种数据集进行深度学习。
translated by 谷歌翻译
通常对端到端自动语音识别(ASR)模型进行训练,以优化整个令牌序列的损失,同时忽略了明确的音素粒度监督。这可能导致由于相似的混淆或音素减少而导致的识别错误。为了减轻这个问题,我们提出了一个基于监督对比学习(Scala)的新框架,以增强端到端ASR系统的音素表示学习。具体而言,我们将自我监督的掩盖对比预测编码(MCPC)扩展到完全监督的设置,在此设置以下方式应用监督。首先,Scala掩盖了可变长度编码器特征,根据音素边界,从预先训练的声学模型中提取的音素强制对齐;然后,它通过对比度学习预测了蒙版的特征。强制对齐可以提供音素标签,以减轻自我监督的MCPC中正阴对引入的噪声。关于阅读和自发语音数据集的实验表明,与基线相比,我们提出的方法分别达到了2.8和1.4点字符错误率(CER)绝对降低。
translated by 谷歌翻译
该技术报告介绍了我们在ICCV DeeperAction研讨会上进行零件级动作解析的动力学-TPS轨道的第二名解决方案。2021年。我们的条目主要基于yolof,例如,零件检测,HRNET用于人体姿势估计,以及用于视频级别的CSN行动识别和框架级别的部分状态解析。我们描述了动力学-TPS数据集的技术细节,以及一些实验结果。在比赛中,我们在动力学TPS的测试集上获得了61.37%的地图。
translated by 谷歌翻译
会话人工智能(Convai)系统最近吸引了许多学术和商业关注,在两端都取得了重大进展。但是,现有的工作讨论了如何在现实世界应用中开发和部署这些系统的社会益处,具有全面的案例研究和利弊分析。在本文中,我们简要介绍了社区对更好的康沃系统的进展,并反思现有技术如何帮助推进来自各种角度的社会良好举措,这些角度是社区中的共同知识。我们进一步讨论了Convai System以更好地帮助我们实现这些目标的挑战,并突出了其在现实世界中开发和部署所涉及的风险。
translated by 谷歌翻译
图像去噪是许多领域下游任务的先决条件。低剂量和光子计数计算断层扫描(CT)去噪可以在最小化辐射剂量下优化诊断性能。监督深层去噪方法是流行的,但需要成对的清洁或嘈杂的样本通常在实践中不可用。受独立噪声假设的限制,电流无监督的去噪方法不能处理与CT图像中的相关噪声。在这里,我们提出了一种基于类似的类似性的无人监督的无监督的深度去噪方法,称为Coxing2Sim,以非局部和非线性方式起作用,不仅抑制独立而且还具有相关的噪音。从理论上讲,噪声2SIM在温和条件下渐近相当于监督学习方法。通过实验,Nosie2SIM从嘈杂的低剂量CT和光子计数CT图像中的内在特征,从视觉上,定量和统计上有效地或甚至优于实际数据集的监督学习方法。 Coke2Sim是一般无监督的去噪方法,在不同的应用中具有很大的潜力。
translated by 谷歌翻译